104 research outputs found

    Illustration d'une méthode lexicométrique des cooccurrences sur un corpus historique

    Get PDF
    La méthode lexicométrique procède d'une démarche d'analyse à la fois descriptive et interprétative de divers corpus textuels à l'aide de l'ordinateur sur la base d'indices quantitatifs de divers fonctionnements discursifs. En explicitant et en figeant le témoin textuel d'une certaine réalité discursive, et en systématisant son analyse on espère, au delà de capacités illustratives, obtenir une méthode offrant une certaine valeur probatoire à l'analyse. En rendant l'objet analysé explicite et transmissible entre les acteurs d'une discipline, on espère pouvoir systématiser la confrontation des points de vue et ainsi obtenir une analyse consensuelle. Enfin, en inscrivant les outils informatisés instrumentant l'objet dans le cadre strict d'une méthodologie reproductible, on espère obtenir une certaine garantie de généralité des analyses effectuées.Dans cet article nous illustrerons un parcours descriptif implémenté par l'outil Weblex, développé au laboratoire ICAR de l'Ecole Normale Supérieure de Lettres et sciences humaines, basé sur un modèle de collocations ou « cooccurrences » appliqué à un corpus historique fermé constitué de discours des orateurs de l'Assemblée constituante. N'étant pas historien nous-même, nous ne chercherons pas à confirmer ou à infirmer une hypothèse de travail mais plutôt à décrire l'analyse en collocations de divers fonctionnements discursifs. Donc plutôt que son aspect probatoire, ce sera l'aspect heuristique – de découverte par la lecture transversale du corpus – de la méthode que nous illustrerons

    Encodage SGML de corpus: application à l'étude d'un débat parlementaire

    Get PDF
    Dans certains domaines de la science, telles la physique ou la psychologie expérimentale, on admet que l'outil d'observation puisse influencer la donnée observable. L'analyse de corpus informatisée, plus particulièrement la lexicométrie, n'échappe pas à ce phénomène, ce qui peut poser un problème de méthode relativement important. Faut-il systématiquement adapter un texte à l'outil qui permettra son traitement automatique pour assister son analyse ? Quels sont les risques à ne pas le faire ? Quelles stratégies adopter ? Y a-t-il un format de stockage ou de représentation du texte général qui permette de transformer aisément le texte pour tel ou tel outil d'analyse ? Etant donné la multitude d'outils d'analyse et de formats de stockage des données, il importe de se questionner sur la démarche d'encodage d'informations dans un texte à des fins d'analyses lexicométriques et de proposer des éléments de réponse aux questions posées systématiquement par l'étude du discours à l'aide d'outils traitant des corpus textuels sous forme électronique.Dans cet article, après une analyse de la démarche et des enjeux de l'encodage de corpus, nous proposons un format et des outils d'encodage qui satisfont aux contraintes de la méthode.Cet article est organisé comme suit : dans la section 2, nous définissons trois types d'informations fondamentaux pour les traitements lexicométriques. Dans la section 3, nous exposons une méthode normalisée d'encodage mise au point pour la base de textes de notre laboratoire en liaison avec les différents outils de traitement afférents. Enfin, dans la section 4, nous illustrons la démarche proposée en l'appliquant à un corpus de débats parlementaires pour montrer quelques exemples d'exploitatio

    The TXM Platform: Building Open-Source Textual Analysis Software Compatible with the TEI Encoding Scheme

    Get PDF
    International audienceAbstract. This paper describes the rationale and design of an XML-TEI encoded corpora compatible analysis platform for text mining called TXM.The design of this platform is based on a synthesis of the best available algorithms in existing textometry software. It also relies on identifying the most relevant open-source technologies for processing textual resources encoded in XML and Unicode, for efficient full-text search on annotated corpora and for statistical data analysis.The architecture is based on a Java toolbox articulating a full-text search engine component with a statistical computing environment and with an original import environment able to process a large variety of data sources, including XML-TEI, and to apply embedded NLP tools to them.The platform is distributed as an open-source Eclipse project for developers and in the form of two demonstrator applications for end users: a standard application to install on a workstation and an online web application framework

    Capitalisation des savoirs par le web : une application de la TEI pour l'encodage et l'exploitation des textes de la Base de Français Médiéval

    Get PDF
    Les questions relatives à la mise sur le web de corpus d'ancien et de moyen français se sont présentées à nous lors du transfert des textes de la Base de Français Médiéval sur le site français de l'ATILF. Jusqu'à présent, les textes de la Base de Français Médiéval n'étaient pas accessibles sur la toile. Ils étaient exploités par l'intermédiaire de concordances, réalisées au moyen du logiciel ANALYSER de Pascal Bonnefois, mais leur accès restait réservé.Le transfert de ces textes et leur intégration dans la grande base FRANTEXT nous a donc fourni l'occasion de nous poser un certain nombre de questions méthodologiques. La transmission de données textuelles peut en effet s'envisager selon deux points de vue : on peut échanger des textes entre institutions ou collègues en laissant à chacun le choix des outils grâce auxquels ils les exploiteront, ou l'on peut accéder à des textes que l'on ne possède pas via une base de données interrogeable à distance. C'est le parti pris par les bases FRANTEXT et ARTFL notamment. Dans le cadre de notre accord avec l'ATILF, nous nous situons clairement dans le second cas de figure. Mais la question du mode de représentation des textes ne nous a pas paru secondaire pour autant. Nous présenterons, dans cet article, les modalités de représentation des textes utilisées nous garantissant un contrôle de la qualité des textes transmis à notre partenaire ainsi que de leur intégration dans notre propre outil d'analyse automatique WEBLEX

    Étiquetage d'un corpus hétérogène de français médiéval : enjeux et modalités

    Get PDF
    We have undertaken a morpho-syntactic tagging of the 2.5 millions words of our corpora of medieval texts. The external and internal heterogeneity of the texts make this task a difficult one. As a result, we had to resort to a double strategy. Since there is actually no tool adapted to our corpora, we had first to rely on a programmable tagger in order to categorize a first text. As a second step, and building on the results obtained with the first text, we produced a tagger based on contextal rule learning. Using this latter tool we subsequently tagged a second, quite "similar" (in terms of external criteria) text. This two-step process was then used once again to tag additional texts.The next phase will be to evaluate the heterogeneity of texts according to internal criteria. The correlation of internal and external heterogeneity will enable us to elaborate a "fine-grained" typology of texts

    The TXM Portal Software giving access to Old French Manuscripts Online

    Get PDF
    Texte intégral en ligne : http://www.lrec-conf.org/proceedings/lrec2012/workshops/13.ProceedingsCultHeritage.pdfInternational audiencehttp://www.lrec-conf.org/proceedings/lrec2012/workshops/13.ProceedingsCultHeritage.pdf This paper presents the new TXM software platform giving online access to Old French Text Manuscripts images and tagged transcriptions for concordancing and text mining. This platform is able to import medieval sources encoded in XML according to the TEI Guidelines for linking manuscript images to transcriptions, encode several diplomatic levels of transcription including abbreviations and word level corrections. It includes a sophisticated tokenizer able to deal with TEI tags at different levels of linguistic hierarchy. Words are tagged on the fly during the import process using IMS TreeTagger tool with a specific language model. Synoptic editions displaying side by side manuscript images and text transcriptions are automatically produced during the import process. Texts are organized in a corpus with their own metadata (title, author, date, genre, etc.) and several word properties indexes are produced for the CQP search engine to allow efficient word patterns search to build different type of frequency lists or concordances. For syntactically annotated texts, special indexes are produced for the Tiger Search engine to allow efficient syntactic concordances building. The platform has also been tested on classical Latin, ancient Greek, Old Slavonic and Old Hieroglyphic Egyptian corpora (including various types of encoding and annotations)

    Catégorisation d'un corpus hétérogène de français médiéval

    Get PDF
    We have undertaken a morpho-syntactic tagging of the 2 millions words of our corpora of medieval texts. The external and internal heterogeneity of the texts make this task a difficult one. As a result, we had to resort to a double strategy.Since there is actually no tool adapted to our corpora, we had first to rely on a programmable tagger in order to categorize a first text. As a second step, and building on the results obtained with the first text, we produced a tagger based on contextal rule learning. Using this latter tool we subsequently tagged a second, quite "similar" (in terms of external criteria) text. The success rate was 95%. This two-step process was then used once again to tag additional texts.The next phase will be to evaluate the heterogeneity of texts according to internal criteria. This task involves the measurement of morpho-syntactic and semantic variation in accordance with statistical methods. It will enable us to correlate internal and external heterogeneity in order to elaborate a "fine-grained" typology of texts.Nous avons entrepris l'étiquetage morpho-syntaxique des 2 millions d'occurrences de notre base de textes médiévaux. L'hétérogénéité externe et interne des textes entre eux complexifie la tâche, ce qui nous a conduit à élaborer une double stratégie.Il n'existe pas actuellement d'outil adapté à notre corpus, d'où le recours, pour catégoriser un premier texte, à un étiqueteur programmable. Dans un second temps, nous avons construit, à partir de ce texte, un étiqueteur travaillant par apprentissage. Il a été utilisé pour étiqueter un texte "proche" (critères externes) du texte d'apprentissage, et nous avons obtenons un taux de réussite de 95%. La double procédure est ensuite réappliquée pour l'étiquetage des autres textes.Par ailleurs, nous voulons désormais évaluer l'hétérogénéité entre textes selon des critères internes. Pour cela il s'agit de mesurer la variation morpho-syntaxique et sémantique selon des méthodes statistiques. Il s'agira ensuite de corréler hétérogénéité externe et interne afin d'élaborer une typologie fine des textes

    TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement

    Get PDF
    International audienceThe research project Federation and Research Developments in Textometry around the creation of an Open- Source Platform distributes its XML-TEI encoded corpus textometric analysis platform online. The design of this platform is based on a synthesis of features of existing textometric software. It relies on identifying the open-source software technology available and effectively processing digital resources encoded in XML and Unicode, and on a state of the art of open-source full-text search engines on structured and annotated corpora. The architecture is based on a Java toolkit component articulating a search engine (IMS CWB), a statistical computing environment (R) and a module for importing XML-TEI encoded corpora. The platform is distributed as an open-source toolkit for developers and in the form of two applications for end users of textometry: a local application to install on a workstation (Windows or Linux) and an online web application. Still early in its development, the platform implements at present only a few essential features, but its distribution in open-source already allows an open community development. This should facilitate its development and integration of new models and methods.Le projet de recherche Fédération des recherches et développements en textométrie autour de la création d'une plateforme logicielle ouverte diffuse sa plateforme d'analyse textométrique de corpus XML-TEI en ligne. La conception de cette plateforme repose sur une synthèse des fonctionnalités des logiciels de textométrie existants. Elle s'appuie sur le recensement des technologies logicielles open-source disponibles et efficaces pour manipuler des ressources numériques XML et Unicode, et sur un état de l'art des moteurs de recherche en texte intégral sur corpus structurés et étiquetés. L'architecture consiste en une boîte à outils Java articulant un composant moteur de recherche (IMS CWB), un environnement de calcul statistique (R) et un module d'importation de corpus XML-TEI. La plateforme est diffusée sous la forme d'une boite à outils en open-source pour les développeurs informatique mais également sous la forme de deux applications pour les utilisateurs finaux de la textométrie : une application à installer sur un poste local (Windows ou Linux) et une application web accessible en ligne. Encore au début de son développement, la plateforme n'implémente à l'heure actuelle que quelques fonctionnalités essentielles, mais sa diffusion en open-source autorise un développement communautaire ouvert. Cela doit faciliter son évolution et l'intégration de nouveaux modèles et méthodes

    Maîtriser les déluges de données hétérogènes

    Get PDF
    Le traitement automatique des langues fait de plus en plus appel à de volumineux corpus textuels pour l'acquisition des connaissances. L'obstacle actuel n'est plus la disponibilité de corpus, ni même leur taille, mais l'hétérogénéité des données qui sont rassemblées sous ce nom. Dans cet article, nous examinons l'hétérogénéité que manifestent les articles du Monde quand on les regroupe selon les rubriques de la rédaction du journal. Les conséquences d'une telle hétérogénéité pour l'étiquetage et le parsage sont soulignées. Partant de ce constat, nous définissons la notion de "profilage de corpus" par le biais d'outils permettant d'évaluer l'homogénéité d'un corpus (sur-emploi du vocabulaire, de catégories morpho-syntaxiques, ou de patrons) et l'utilisation qui peut en être faite

    Le discours direct au Moyen Âge : vers une définition et une méthodologie d'analyse

    Get PDF
    De nombreuses recherches menées en parallèle dans un cadre linguistique ont montré que la dichotomie entre oral et écrit était trop simple : d'une part, il est certainement plus approprié d'établir un continuum entre ces deux pôles, d'autre part il convient d'établir des catégories plus fines et plus précises, en distinguant plusieurs types d'oral et d'écrit et en dissociant le canal par lequel se fait la communication et le mode de conception du message lui-même. La recherche dont les premiers résultats sont présentés dans cet article repose sur l'exploration outillée d'un corpus de textes médiévaux. Fondée sur une approche contrastive des données, elle s'articule autour de trois grandes questions : 1) Quel accès pouvons-nous avoir à l'oral et à quelle(s) forme(s) d'oral au Moyen Age ? 2) Quelle relation peut-on établir entre le discours direct et l'oral représenté dans les documents médiévaux ? 3) Le discours direct présente-t-il une grammaire spécifique ? Le présent article propose une méthodologie empirique qui permette d'aborder ces différents points. Premièrement, il s'agit de décrire la façon dont le corpus enrichi permettant d'étudier le discours direct de manière contrastive a été élaboré et de présenter la méthodologie d'analyse et les outils utilisés. Les premiers résultats tirés de l'exploitation du corpus sont exposés dans une seconde section
    corecore